Extraction de lexiques bilingues à partir de Wikipédia (Bilingual lexicon extraction from Wikipedia) [in French]

نویسندگان

  • Rahma Sellami
  • Fatiha Sadat
  • Lamia Hadrich Belguith
چکیده

________________________________________________________________________________________________________ Bilingual lexicon extraction from Wikipedia With the increased interest of the machine translation, needs of multilingual resources such as comparable corpora and bilingual lexicon has increased. These resources are not available mainly for pair of languages that do not involve English. This paper aims to describe our approach on the extraction of bilingual lexicons for Arabic-French and Yoruba-French pairs of languages from the online encyclopedia, Wikipedia. We exploit the large scale of Wikipedia article to extract two bilingual lexicons that will be very useful for natural language applications. MOTS-CLES : Lexique bilingue, corpus comparable, Wikipédia, arabe-français, yorubafrançais.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Bilingual Lexicon Extraction from Comparable Corpora by Combining Contextual Representations (Extraction de lexiques bilingues à partir de corpus comparables par combinaison de représentations contextuelles) [in French]

RÉSUMÉ La caractérisation du contexte des mots constitue le cœur de la plupart des méthodes d’extraction de lexiques bilingues à partir de corpus comparables. Dans cet article, nous revisitons dans un premier temps les deux principales stratégies de représentation contextuelle, à savoir celle par fenêtre ou sac de mots et celle par relations de dépendances syntaxiques. Dans un second temps, nou...

متن کامل

Extraction de lexiques bilingues à partir de corpus comparables spécialisés : étude du contexte lexical

This work focuses on the concept of lexical context that is central to the historical approach of bilingual lexicon extraction from specialized comparable corpora. First, we revisit the two main strategies dedicated to lexical context characterization, that rely on the use of window-based and syntactic-based representations. We show that the combination of these two representations has a partic...

متن کامل

(Utilisation de la similarité sémantique pour l'extraction de lexiques bilingues à partir de corpus comparables) [in French]

This paper presents a new method that aims to improve the results of the standard approach used for bilingual lexicon extraction from specialized comparable corpora. We attempt to solve the problem of context vector word polysemy. Instead of using all the entries of the dictionary to translate a context vector, we only use the words of the lexicon that are more likely to give the best character...

متن کامل

Anchor points for bilingual extraction from small specialized comparable corpora

Research on bilingual lexicon extraction from comparable corpora leads to promising results using large corpora (hundreds of billions of words) using the direct alignment method. However, when using smaller corpora (hundreds of thousands of words), results obtained are slightly lower. We propose to introduce some anchor points on which we can rely for the alignment process using the direct appr...

متن کامل

Extraction and representation of support verb constructions in Spanish (Extraction et représentation des constructions à verbe support en espagnol) [in French]

Résumé. Le traitement informatique de constructions à verbe support (prendre une photo, faire une présentation) est une tâche difficile en TAL. Cela est également vrai en espagnol, où ces constructions sont fréquentes dans les textes, mais ne font pas souvent partie des lexiques exploitables par une machine. Notre objectif est d'extraire des constructions à verbe support à partir d’un très gran...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2012